
Data Science
Contenu
1 TRAITEMENT DE DONNEES 4
1.1 Description des Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Analyses graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Le Graphique Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 L’histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Choix des Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Corr´elation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Anova . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 R´egression au Lasso avec Variable claimBin pour la S´election des Fonc-
tionnalit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.4 Les Variables carType, carCategory et carGroup . . . . . . . . . . . . . 11
1.3.5 S´eparation Suppl´ementaire des Donn´ees Train . . . . . . . . . . . . . . 13
2 MODELISATION 14
2.1 Probabilit´e de Sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.1 Analyse Descriptive du Nombre de Sinistre . . . . . . . . . . . . . . . . 14
2.1.2 Mod`ele logistique (Logit) . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.3 Mod`ele Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.5 Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.6 XGBoost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.7 Selection du Mod`ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 La valeur attendue de sinistre en sachant qu’elle est positive . . . . . . . . . . 24
2.2.1 The Generalized Linear Model (Gamma) . . . . . . . . . . . . . . . . 24
Groupe 11 1